TYPY KORPUSŮ
Korpusy vznikají podle praktické potřeby uživatelů a jejich typologie se také od těchto potřeb odvíjí. Jejich obecné schéma lze podle jaz. a situace tudíž různě dál modifikovat. K hlavním typům patří ↗korpus:
1. | z hlediska počtu jazyků | a‑jednojazyčný a b‑vícejazyčný |
2. | z hlediska tématu ap. | a‑obecný a b‑specializovaný |
3. | z hlediska modu | a‑psaný a b‑mluvený |
4. | z hlediska časového záběru | a‑synchronní a b‑diachronní |
5. | z hlediska „archeologického“ | a‑synchronní a b‑archívní |
6. | z hlediska vymezeného účelu | různé |
Jakkoliv se dnes zájem uživatelů soustřeďuje pochopitelně na synchronní korpusy psané, popř. i mluvené, jako je ↗ČNK (1a, 2a, 3a‒b, 4a‒b), existují a vznikají menšinově i důležité korpusy další (pro č. je řada z nich dostupná na: http://korpus.cz/).
Ke specializovaným korpusům (2b) lze pro č. oblast počítat např. KSK (Korpus soukromé korespondence) či korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), n. korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj.
Dnes nejběžnější a nejpoužívanější typ korpusů je ↗psaný korpus. ↗Mluvený korpus (3b) je ze své podstaty synchronní (pro č. jsou momentálně k dispozici už 4 menší, PMK, BMK, Oral2006, Oral2008), volně sem však patří i korpus nahrávek žáků ve škole Schola2010, existují však i korpusy vznikající z fonetických či prozodických důvodů aj.
Korpusy však můžou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpus multimodální (ev. multimediální).
Diachronní korpus (4b) je vlastně soubor více korpusů z různých, resp. všech dob vývoje jaz., pokud už jsou elektronicky dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší.
Specifickou roli mají korpusy, které plní roli archivační (5b), ať už u jaz. vymírajících, resp. ohrožených, jako livonština u Baltu či všech 11 sámských (laponských) dialektů apod., anebo u jaz. už dávno mrtvých, srov. např. korpus ugaritštiny, starobabylonštiny (http://klinopis.cz/) aj.
Z dalších hledisek (6) se dříve uvažovalo o monitorovacím korpusu, který se chápal více způsoby. Nejčastěji se pojímal jako v ideálních proporcích sestavený a otagovaný korpus, k němuž se přidávaly jak nové texty, tak nové značky k existujícím starým, což mělo umožňovat srovnání korpusového záznamu stavu jaz. (etalonu) se změnami napříč časem; v praxi se nikdy takový dynamicky pojatý korpus na dlouho neuplatnil a jeho dnešní užití je menší. Od něj se liší referenční korpus, který se zvláště pro svou reprezentativnost a respektovanou povahu užívá jako standard k poměřování jiných korpusů, avšak bez důrazu na časový aspekt. Je pochopitelné, že zvláštní důležitost mají u některých jazyků korpusy nářeční, v č. zatím v zásadě však neexistující.
Paralelní korpusy jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jaz. Zvláštním případem jsou vícejazyčné paralelní korpusy sdílející řadu textů a vázané na jeden jazyk, jako je č. ↗InterCorp. Z nedostatku paralelních korpusů se někdy užívají i srovnatelné korpusy (comparable corpora), založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. Vlastní, obvykle menší korpus si může ovšem kdokoliv vytvořit pro svůj specifický cíl sám.
- Viz Korpus.
URL: https://www.czechency.org/slovnik/TYPY KORPUSŮ (poslední přístup: 21. 11. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka